Implementing activation steering
https://scrapbox.io/files/66c9ef24a995c8001d7e6097.png
内部モデルのアクティベーションにベクトルを追加し、プロンプトと同様な(ただし、場合によってはより効果的な)方法でモデル出力に影響を与えるだけです。
これは直接ベクトルを足し合わせるイメージか
code:python
# define a steering vector
_ = model("Love")
_ = model("Hate")
steering_vec = act_love-act_hate
面白い!本当にただベクトル引っこ抜いてるだけだ